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Uno dei problemi principali di quando si cerca di copiare un sito web, è che non è possibile a 
causa di un divieto imposto dal file Robots.txt. 

Per informazioni su cos'è un file Robots.txt rimando alla pagina: 

http://it.wikipedia.org/wiki/Robots.txt 

Iniziamo ad analizzare i metodi per scaricare un Sito Web grazie al tool gratuito HTTrack 
disponibile in multipiattaforma sia per Windows che per Linux. 

La differenza sostanziale sulle due piattaforme è che su Windows è stata sviluppata una GUI per 
rendere il lavoro più semplice, al contrario del lavoro di shell richiesto per Linux. 

Lo potete scaricare questo indirizzo: 

http://www.httrack.com/ 
Procedura passo passo di utilizzo"WinHTTrack.exe"(Interfaccia GUI per HTTrack per Win) 
Aprire "WinHttrack.exe" 




Avanti > 



Il nonne del nuovo progetto: 

Project category: 
Info 

Nuovo progetto 




Il percorso base: 



SitoWeb 



CADocunnents and Settings\H4\Desktop\Slides\coia| [~7] 



< Indietro Avanti > 



Annulla 



Scegliere il nome del progetto, la categoria e la destinazione di salvataggio del progetto. 
Avanti > 

- Modo rnirror - 

Inserisci l'indirizzo(i) URL nell'apposito spazio 



Azione: 


Scarica il sito(i) web 


V 




Scarica il sito(i) web 


Indirizzi Web: (URL) 


Scarica il sito(i) (con richieste) 
Scarica file separati 






http7/css. htnril.it 


Scarica tutti i siti nelle pagine [rnirror multiplo) 
Verifica i collegamenti nelle pagine (test dei bookmark 
* Continua un download interrotto 
Aggiorna un download esistente 
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RL list (.txt): 
Impostazioni e opzioni del rnirror: 



]Q 



Definisci le opzioni.. 



< Indietro Avanti > 



Annulla 



Scegliere la tipologia di azione da parte del programma ( Scarica il sito permette di scaricare 
interamente il Sito Web ) 



Adesso un passo importante, dobbiamo scegliere le opzioni per il download del sito, queste sono da 
scegliere con attenzione, necessarie per la buona riuscita del lavoro. Per accedere al pannello di 
controllo delle opzioni basterà cliccare su Definisci opzioni della finestra precedente. 



Impostazioni e opzioni del mirrar: 



Definisci le opzioni.. 



La mia attenzione ricade sull'opzione Identità del Browser perchè scegliere tra le varie opzioni di 
questa sezione è importante per permettere il download delle pagine. 

Per capire il motivo di questa enfasi su quella opzione bisogna sapere come funziona un web 
downloader. 

HTTrack come molti web downloader accede ad una pagina, parsifica tutto il codice HTML alla 
ricerca di link ad altre pagine (grazie ad uno spider) e salva una copia di ogni pagina che visita 
nella cartella desiderata; fin qui nessun problema, ma dobbiamo aggiungere il fatto che il 
Robots.txt impone delle restrizioni per l'accesso alle pagine web del sito da parte degli spider. 
Essendo il Robots.txt uno strumento creato dal webmaster per marcare queifde e quelle directory 
di un sito web che non si vuole rendere accessibili agli spider dei motori di ricerca, possiamo 
facilmente verificare che nel nostro caso, nel fde Robots.txt localizzato nell'indirizzo: 



http://***.*******.**/Robots.txt 



troviamo una stringa del genere: 

#Aggiunto il 03 agosto 2002 
User-agent: WinHTTrack 
Disallow: / 

Possiamo ben capire che lo User-Agent WinHTTrack non ha il permesso di accedere a 
nessuna pagina del sito. 

Come possiamo ovviare a questo problema? Semplicemente cambiando identità al nostro User- 
agent, dandogliene una che non è presente nel file Robots.txt. 

Con il tool WinHTTrack nella sezione Identità del Browser possiamo cambiare identità al nostro 
User-Agent facendo in modo che appaia non più come: 

User-agent: WinHTTrack ma come User-agent: WinHTTrack 



Identità 

Pie di pagina HTML 




ozilla/'4.5 (compatible; HTTrack 3. Ox; Windows 93 



Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)| 
Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.I 
Mozilla/4.0 (compatible; MSIE 5.0; Win32) 



Mozilla/4.5 (compatible; MSIE 4.01; Windows 98 



Mozilla/4.5 (compatible; MSIE 4.01; Windows 95) 
Mozilla/4.5 (compatible; MSIE 4.01; Windows NT) 
Mozilla/4.78 [en] (Windows NT 5.0; U) 

lj - ii i ri r-i r i . f fìrì n 



Secondo la mia esperienza quello selezionato funziona su una marea di siti internet, perchè non 
viene mai bloccato, quindi scegliete quello. 



Le altre opzioni non le tratto perchè sono superflue a causa della variabilità che hanno a seconda del 
tipo di banda a disposizione, spazio... ecc. 



Avanti e fine. Vedremo poi iniziare il download e la scansione da parte degli spiders 
pagine. 
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| Canori j | Help 



Diversa la situazione con le impostazioni tramite Shell. Di seguito sono riportate passo passo 
le istruzioni da seguire per lo stesso scopo illustrato nel punto precedente. 



Aprite "httrack.exe" o diversa estensione a seconda del SO. 
Inserite il nome del progetto: 



Welcome to HTTrack Website Copier <Offline Browser) 3 .42+htssuf +hts jaua 
Copyright <C> Xavier Roche and other contributors 
Mote: Voli are running the co rimandi in e uersion, 
run 'WinHTTrack.exe' to get the GUI uersion. 

To see the option list, enter a blank line or try httrack — help 
Enter project name :Proua2 



Inserire la cartella di destinazione: 



ase path (return = . /uebs ites/) :c:/proua2 



Inserire l'Uri: 



nter UTtLs (separateci by commas or blank spaces) : http i/Zcss .html, it 



Scegliere l'azione da compiere: 



Act ion : 

(enter) i Mirror Ueb Site<s> 

2 Mirror Ueb Site(s) uith Wizard 

3 Just Get Files Indicateci 

4 Mirror ALL links in URLs (Multiple Mirror) 

5 Test Links In URLs <Bookmark Test> 
0 Quit 



Premiamo due volte invio per non settare le impostazioni Proxy e le Wildcards: 

(return=none) significa che se premete invio la scelta è "nessuno" 



Proxy <return=none> : 

¥ou can define uildcards, like : -*.gif +uwu.*.con/*.zip -*img_».zip 
Uildcards (return=none> : 



Definiamo le opzioni: 



lau can define additional options, such 
y blank spaces 

fo see the option list, type help 
Additional options <return=none> : 



as recurse leuel <— r<nunber», separed b 



Per visualizzare tutte le opzioni digitare help e poi premere invio. 

Nel nostro caso dobbiamo settare l'identità del browser, seguiamo la seguente linea di comando 



-F "Mozzilla/4.5" 



ou can define additional options, such as recurse leuel <-r<nunber>> , separed 
1 blank spaces 

o see the option list, type help 

dditional options Creturn=none> :F Mozzilla/4.5 



Avremo come risposta la wizard commandline precompilata: 



— > Wizard command line: httrack http://css.html.it -0 "c :Sproua3/oipgjreipo jg 
" -V.v -F "Mozilla/4.5" 



Ci verrà richiesta la conferma del mirroring: 
Digitiamo Y 



eady to launch the nirror? (V/n) :y 



Attendiamo la fine del processo: 



I 



irror launched on Sat, 19 Apr 2008 01:03:33 by HTTrack Website Copier/3 . 42 +htss 
f+htsjaya [XR&CO' 2007] 

irroring http://css.htnl.it uith the wizard help.. 



Verrà concluso quando la shell si chiuderà da sola. 
Enjoy. 



